Une proposition pour l'extraction de relations non prédicatives
نویسنده
چکیده
L'Extraction d’Information consiste à identifier de l'information bien précise d'un texte en langue naturelle et à la représenter sous forme structurée. Les composantes de l’information recherchée sont généralement prédéfinies et circonscrites à un domaine spécifique, et les principaux travaux réalisés en matière d’identification de relations sémantiques ont essentiellement concerné les relations portées par une structure de type prédicats-arguments. Les principales approches d’identification de ces relations ont été basées sur l’analyse syntaxique (identification du verbe et ses arguments) (Khélif, 2006), ou sur la définition de patrons lexico-syntaxiques (Aussenac et al., 2000). L’étude de corpus de domaines différents montre que bonne partie de l’information pertinente peut aussi être distribuée sur plusieurs phrases, par le biais de relations exprimées à l’aide de variations linguistiques, comme la coréférence, l’anaphore ou l’ellipse. Les méthodes classiques d’extraction de relations ne sont alors plus adaptées. La résolution de relations non prédicatives, et plus particulièrement d’une certaine forme elliptique (formes passives où l’argument agent est effacé) utilisée fréquemment, nous a conduits à proposer une représentation des connaissances du domaine considéré, à l’aide du modèle des graphes conceptuels, car ce modèle est doté d’opérations et offre des procédures de raisonnement (Salvat, 1997).
منابع مشابه
Construction d'attributs pour l'extraction de connaissances à partir de séquences biologiques
Résumé. Dans cet article nous étudions un problème de prétraitement de données : la construction d’attributs décrivant des séquences biologiques. Afin d’assurer l’extraction de connaissances à partir de séquences biologiques (ADN, ARN et protéines), tout système de fouille de données (datamining) se confronte à la représentation non habituelle de ce type de données. Une séquence biologique est ...
متن کاملApproche générique pour l'extraction de relations à partir de textes
Résumé : Cet article s’intéresse à l’extraction de relations dans le contexte du web sémantique, en vue de procéder à de la construction d’ontologies aussi bien qu’à de l’annotation automatique de documents. Notre approche permet l’extraction de relations entre entités à partir de textes. Elle ne fait pas d’hypothèse sur les entités, de manière à la rendre aussi générique que possible, et à aut...
متن کاملChoix du taux d'élagage pour l'extraction de la terminologie. Une approche fondée sur les courbes ROC
Résumé. Le choix du taux d’élagage est crucial dans le but d’acquérir une terminologie de qualité à partir de corpus de spécialité. Cet article présente une étude expérimentale consistant à déterminer le taux d’élagage le plus adapté. Plusieurs mesures d’évaluation peuvent être utilisées pour déterminer ce taux tels que la précision, le rappel et le Fscore. Cette étude s’appuie sur une autre me...
متن کاملLe trichobezoard: une cause rare de masse abdominale
Le trichobezoard est une masse formée par l'accumulation des cheveux eu niveau du tube digestif, notamment dans l'estomac. Elle apparait chez la fille adolescente avec un profil psychologique particulier, présentant une trichomanie et une trichophagie. Nous rapportons le cas d'une patiente de 14 ans, qui consulte pour une masse abdominale sus ombilicale dure, indolore, fixe, mesurant environ 30...
متن کامل